域外观察 | OECD发布《人工智能语言模型》报告
2023年4月13日,经合组织(OECD)发布《人工智能语言模型:技术、社会经济和政策考量》报告,概述了人工智能语言模型和自然语言处理(NLP)的发展前景,以及世界主要国家在语言模型领域的政策动态,并结合OECD人工智能发展原则提出建设性的政策建议。
一、背景概述
自然语言处理(NLP)是人工智能技术的重点领域,而人工智能语言模型是NLP的关键组成部分,旨在使计算机能够理解和生成人类语言。在定义方面,NLP是指通过分析、生成、修改、响应人类文本和语音数据来自动化执行自然语言功能的计算机程序和工具。NLP使用语言作为输入,产生语言作为输出,或者两者兼而有之。行业内普遍认可NLP的变革性意义,近期大火的ChatGPT就是最好例证。
随着人工智能技术的迅速进步,各国政府逐渐认识到人工智能语言模型和其他NLP应用在加强公共服务、改善医疗保健、推广民族语言等场景下提高生产力和降低成本的重要作用,积极出台政策从国家层面鼓励NLP开发和部署。其中,投资开发非英语语言的数字语言资源是该领域的一个重要趋势。Hugging Face数据显示,目前英语以外语言的人工智能训练数据的可用性较低,英语语言资源在所有语言资源中占比最高为38%,其次是德语(5.3%)、西班牙语(4.9%)和法语(4.7%),中文语言资源尚未参与统计。
二、各国政策简析
总体而言,全球主要经济体正在加速布局各国语言数据集。经合组织成员国中,加拿大国家研究委员会的多语言文本处理团队正在进行多语言AI模型研发,重点支持加拿大土著语言的可访问性。在丹麦,语言模型开发是国家人工智能战略的一部分,政府于2021年承诺投资400万欧元用于丹麦语资源开发。爱沙尼亚“2018-2027年爱沙尼亚语研发计划”正在积极开展,旨在确保爱沙尼亚语模型的基本组成符合国际标准,提高其数字可访问性。法国政府制定了国家人工智能研究计划,通过开发“PIAF”项目为人工智能构建法语数据集。芬兰政府授权外部公司开发了AURA项目,提供芬兰语、瑞典语、英语文本之间的机器翻译服务,并创建了政府术语数据库Valter。在德国,德语版本的GPT-2模型已经在一个庞大的德语数据集上进行了训练,“德国制造”语音助手平台也在开发中。匈牙利创新科技部成立了人工智能联盟,正在致力于小规模训练匈牙利语版本的GPT-3模型。在以色列,NLP是国家人工智能基础设施计划的主要支柱之一,旨在建立希伯来语和阿拉伯语语言模型。日本国家信息通信技术研究所(MICT)正在积极布局多语言翻译系统。韩国政府发布了针对NLP系统的国家人工智能计划。拉脱维亚2021-2027年政策规划文件中强调了人工智能语言模型的重要性,以及对数字语言资源和语言库的需求。立陶宛国家语言委员会发布了《2021-2027年数字环境下立陶宛语发展和NLP进展指南》。挪威语言银行是提供NLP资源的国家基础设施,正在积极开展人工智能语言模型开发合作项目。斯洛文尼亚《2011-2020年基础设施发展计划》确定了建立斯洛文尼亚语语言资源和技术基础设施的需求。西班牙政府资助开展了“国家自然语言技术发展计划”,推进西班牙语和其他土著语言研究。土耳其已经正式启动“2021-2025年国家人工智能战略”,重点之一就是开发土耳其语语言模型。
三、技术维度
报告引用了《OECD人工智能系统分类框架》,并以此为基础考察通用人工智能语言模型的技术维度,涉及对人类和地球的影响、经济背景、数据和输入、人工智能模型、任务和输出五个维度。
一是对人类和地球的影响。人类和地球维度是OECD人工智能系统分类框架的核心,重点关注在人工智能全生命周期中人与系统的互动方式以及对人权和人类福祉的影响。人工智能语言模型和应用程序的用户很可能对技术不甚了解,应当重点关注容易受到不利影响的利益相关者,比如缺乏数字技能的工人和消费者等。
二是经济背景。经济背景是部署人工智能系统的物质环境,涉及开发和部署部门、业务功能和模型、技术关键性、应用规模、技术成熟度等。良好的人工智能语言模型对宏观经济的影响已经相当可观,其潜在的变革性作用也不容忽视。
三是数据和输入。数据和输入维度是“人工智能模型创造与物理环境相对应的虚拟映射所用到的输入材料”,主要是指语言资源、包括书面语和口语、语法、术语数据库等。目前大多数现有语言资源都是英语,但这种情况正在发生变化,因为非英语国家已经认识到语言数据和开发母语语言资源的重要性。
四是人工智能语言模型。《OECD人工智能系统分类框架》将人工智能模型定义为“一种包含过程、对象、想法、人员和交互的计算表征”。 人工智能语言模型的研究和开发自2015年来取得突破性进展,例如机器学习神经网络模型、Transformer算法、大语言模型(LLM)、通用人工智能(AGI)等。
五是任务和输出。任务和输出维度包括人工智能系统执行的任务、输出结果以及对整体环境的影响性行动。NLP项下的不同子集包括自然语言理解、自然语言生成、自动语音识别等,其对应的具体任务包括名称实体识别、词性标注、文本分类、句法解析和机器翻译等。
四、政策考量
人工智能语言模型造成的潜在负面影响主要涉及六个方面:一是歧视性和排他性言论带来的危害,二是模型数据泄露或者推断出敏感信息带来的危害,三是虚假性或误导性错误信息带来的危害,四是恶意使用带来的危害,五是人机交互和过度信赖带来的危害,六是自动化访问和处理环境带来的危害。
OECD提出,人工智能语言模型的发展也要遵循人工智能五项原则。一是造福人类和地球原则。自然语言是人类在日常交互中使用语言的统称,长期影响着人们的生活模式和工作方式,而人工智能语言模型的出现为之带来了新的发展机会。人工智能语言模型通过大规模使用人类自然语言,代替人工执行多样化任务,在公共管理、医疗保健、银行金融等部门加快部署,为不同环境和各行各业的包容性增长、可持续发展和人类福祉产生积极影响。二是以人为本的价值观和公平性原则。鉴于人工智能语言模型的处理能力不断增强、涉猎范围不断增加,与尊重人权、民主价值观和公正公平有关的考虑尤为重要。训练数据的选择和处理在防范错误和虚假信息、减少歧视性偏见等方面起着重要作用。三是透明度及可解释性原则。如今大多数人工智能语言模型依赖于神经网络,即复杂且不透明的统计建模技术形成的“黑匣子”,这对人工智能语言模型的透明度和可解释性构成了核心挑战,应当重点关注语言模型的使用时间、使用指导、滥用警告、反馈机制等。四是稳健性和安全性原则。OECD指出,“人工智能系统在其整个生命周期中应该是稳健、可靠和安全的,以便在正常使用、可预见的使用、误用或其他不利条件下都能正常运行,不会构成不合理的安全风险。”人工智能语言模型应当重点关注恶意开发、模型滥用、个性化欺诈等数字安全问题。五是问责制原则。随着人工智能语言模型的处理能力不断增强、涉猎范围不断增加,“谁应该对模型的正常运行负责”以及“各方责任如何界定”的讨论愈演愈烈。人工智能涉及许多复杂环节和众多参与者,各个环节的参与者都应当在人工智能系统的全生命周期中管理人工智能风险,合作建立统一的行业标准和质量控制;同时应当对强大的语言模型设立合理的护栏制度,避免人类过度信任和过度依赖带来的危害性后果。
据此,OECD对各国人工智能语言模型发展提出的五项政策建议如下:一是完善人工智能语言模型的投资研发的技术标准、评估手段、训练和查询机制等;二是培育完善的数字生态系统;三是营造有利的政策环境;四是培养具备新型数字能力的劳动力;五是鼓励国际性、跨学科、多方利益相关者的合作交流。
动态观察|欧盟成员国GDPR重点执法案例汇编(2023.02)动态观察|欧盟成员国GDPR重点执法案例汇编(2023.01)域外观察|美国CSIS发布《投资于联邦网络弹性》报告域外观察|美智库研究认为两类网络安全问题值得关注
中心研究|《个人信息出境标准合同办法》出台,具体场景适用可参考欧盟成熟经验中心研究|欧盟发布《医疗数据空间条例》,为重点行业数据共享提供经验域外观察|联合国发布《隐私增强技术指南》中心研究|我国主要立法中数据处理者相关评估义务规定研究域外观察|瑞典发布一份欧盟《数据法案》妥协方案域外观察|ITIF发布《不损害人工智能创新发展的十项监管原则》报告域外观察|美国NIST发布《人工智能风险管理框架》年度观察|2022年网络法治盘点与回顾(一):数据治理篇年度观察|2022年网络法治盘点与回顾(二):数字平台篇
年度观察|2022年网络法治盘点与回顾(三):数字内容篇
年度观察|2022年网络法治盘点与回顾(四):数字安全篇
中心会议│第六届互联网法律研讨会在京顺利召开中心研究 | 美欧之间能否再次顺利签署跨大西洋数据流动协议?中心研究|2022年美国ICT领域重要立法进展
中心研究|印尼《个人数据保护法》能否为全球数据跨境流动探索出替代数据本地化的新路径?
中心研究|《数字市场法》案例梳理系列—(一)谷歌购物案
中心研究 | 《个人信息保护法》实施一周年观察之数据保护带来的成本究竟几何中心研究 | 我国跨境数据流动管理制度概论——兼析《网络安全法》第37条的制度构建及意义域外观察|欧盟发布《欧洲互操作法案》,加速欧洲公共部门数字化转型域外观察|欧盟签署《欧洲数字权利和原则宣言》域外观察 | 欧盟《网络弹性法案》研究报告域外观察|亚太地区数据保护法律中有关“个人数据处理的合法性基础”的比较分析
域外观察|爱尔兰DPC针对Meta爱尔兰公司的数据泄露问题做出决定
域外观察|美国出口管制政策真的能扼制中国AI发展未来吗?域外观察 | 印度个人数据保护法案为何历经四度更迭?(附最新版法案译文)
域外观察|国外聚焦“黑暗模式”探索监管路径域外观察|欧洲数据保护委员会发布新版《数据控制者、处理者识别牵头监管机构指南》专家解读|加快规范深度合成技术应用